The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
在线操作检测是一旦在流视频中进行的操作,就可以预测该动作。一个主要的挑战是,该模型无法访问未来,并且必须仅依靠历史,即到目前为止观察到的框架来做出预测。因此,重要的是要强调历史的一部分,这些部分对当前框架的预测更有意义。我们提出了带有背景抑制的封闭历史单元的Gatehub,其中包括一种新颖的位置引导的封闭式跨注意机制,以增强或抑制历史的一部分,因为它们在当前框架预测方面的信息程度。 GateHub进一步建议未来的历史记录(FAH),通过使用后来观察到的框架,使历史特征更具信息性。在一个统一的框架中,GateHub集成了变压器的远程时间建模的能力以及经常性模型选择性编码相关信息的能力。 GateHub还引入了一个背景抑制目标,以进一步减轻与动作框架非常相似的误报背景框架。对三个基准数据集(Thumos,TVSeries和HDD)进行了广泛的验证,这表明GateHub显着胜过所有现有方法,并且比现有最佳工作更有效。此外,与所有需要RGB和光流信息进行预测的现有方法相比,GateHub的无流版本能够以2.8倍的帧速率获得更高或密切的精度。
translated by 谷歌翻译
In this paper, we present a cross-modal recipe retrieval framework, Transformer-based Network for Large Batch Training (TNLBT), which is inspired by ACME~(Adversarial Cross-Modal Embedding) and H-T~(Hierarchical Transformer). TNLBT aims to accomplish retrieval tasks while generating images from recipe embeddings. We apply the Hierarchical Transformer-based recipe text encoder, the Vision Transformer~(ViT)-based recipe image encoder, and an adversarial network architecture to enable better cross-modal embedding learning for recipe texts and images. In addition, we use self-supervised learning to exploit the rich information in the recipe texts having no corresponding images. Since contrastive learning could benefit from a larger batch size according to the recent literature on self-supervised learning, we adopt a large batch size during training and have validated its effectiveness. In the experiments, the proposed framework significantly outperformed the current state-of-the-art frameworks in both cross-modal recipe retrieval and image generation tasks on the benchmark Recipe1M. This is the first work which confirmed the effectiveness of large batch training on cross-modal recipe embeddings.
translated by 谷歌翻译
已经证明,深度神经网络(DNN)在解决许多现实问题方面是有效的,但其高计算成本禁止将这些模型部署到边缘设备。修剪,作为将零的方法引入模型重量的方法,已显示是在模型精度和计算效率之间提供良好权衡的有效方法,并且是一种生成压缩模型的广泛使用的方法。然而,修剪的粒度使得重要的权衡。在相同的稀疏性水平上,粗粒结构的稀疏图案在传统硬件上更有效,但导致更差的精度,而细粒度的非结构化稀疏模式可以实现更好的精度,但在现有硬件上效率低下。另一方面,一些现代处理器配备了快速的片上刻痕存储器和聚集/散射引擎,用于在这种存储器上执行间接负载和存储操作。在这项工作中,我们提出了一系列新颖的稀疏模式,命名为聚光散射(GS)模式,以利用Scratchpad存储器和收集/散射引擎来加速神经网络推论。相应地,我们呈现了一种紧凑的稀疏格式。提出的稀疏模式,以及一种新颖的修剪方法,解决了负载不平衡问题,并导致质量接近非结构化稀疏模型的型号,以及靠近结构化稀疏型号的计算效率。我们的实验表明,与传统结构稀疏模式相比,GS模式在精度和计算效率之间始终如一地进行折衷。 GS模式可以以相同的精度级别将DNN组件的运行时间减少两到三次。这是在三个不同的深度学习任务和流行模型中确认,即机器翻译的GNMT,用于图像识别的Reset50,以及用于声学语音识别的Japser。
translated by 谷歌翻译
人对象交互(HOI)检测作为对象检测任务的下游需要本地化人和对象,并从图像中提取人类和对象之间的语义关系。最近,由于其高效率,一步方法已成为这项任务的新趋势。然而,这些方法侧重于检测可能的交互点或过滤人对象对,忽略空间尺度处的不同物体的位置和大小的可变性。为了解决这个问题,我们提出了一种基于变压器的方法,Qahoi(用于人对象交互检测的查询锚点),它利用了多尺度架构来提取来自不同空间尺度的特征,并使用基于查询的锚来预测全部Hoi实例的元素。我们进一步调查了强大的骨干,显着提高了QAHOI的准确性,QAHOI与基于变压器的骨干优于最近的最近最先进的方法,通过HICO-DEC基准。源代码以$ \ href {https://github.com/cjw2021/qhoii} {\ text {this https url}} $。
translated by 谷歌翻译
医学图像分类已在医学图像分析中广泛采用。但是,由于难以在医疗领域收集和标记数据,医疗图像数据集通常受到高度影响。为了解决这个问题,先前的工作利用类样本作为重新加权或重新采样的先验,但特征表示通常仍然不够歧视。在本文中,我们采用对比度学习来解决长尾医疗失衡问题。具体而言,我们首先提出类别原型和对抗性原型,以产生代表性的对比对。然后,提出了原型重新校准策略来解决高度不平衡的数据分布。最后,统一的原始损失旨在训练我们的框架。总体框架,即作为原型的对比学习(PROCO),以端到端方式统一为单级管道,以减轻医学图像分类中的不平衡问题,这也是与现有作品的独特进步当他们遵循传统的两阶段管道时。对两个高度平衡的医学图像分类数据集进行了广泛的实验表明,我们的方法的表现优于现有的最新方法。
translated by 谷歌翻译
动作识别是人工智能的激动人心的研究途径,因为它可能是新兴工业领域(例如机器人视觉和汽车)的游戏规则。但是,由于巨大的计算成本和效率低下的学习,当前的深度学习面临着此类应用的主要挑战。因此,我们开发了一种新型的基于脑启发的尖峰神经网络(SNN)的系统,标题为用于在线动作学习的尖峰门控流(SGF)。开发的系统由多个以分层方式组装的SGF单元组成。单个SGF单元涉及三层:特征提取层,事件驱动的层和基于直方图的训练层。为了展示开发的系统功能,我们采用标准的动态视觉传感器(DVS)手势分类作为基准。结果表明,我们可以达到87.5%的精度,这与深度学习(DL)相当,但在较小的培训/推理数据编号比率为1.5:1。在学习过程中,只需要一个单个培训时代。同时,据我们所知,这是基于非回复算法的SNN中最高准确性。最后,我们结论了开发网络的几乎没有的学习范式:1)基于层次结构的网络设计涉及人类的先验知识; 2)用于基于内容的全局动态特征检测的SNN。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
在本文中,我们考虑了在$ N $代理的分布式优化问题,每个都具有本地成本函数,协作最小化连接网络上的本地成本函数的平均值。为了解决问题,我们提出了一种分布式随机重新洗脱(D-RR)算法,该算法结合了经典分布式梯度下降(DGD)方法和随机重新洗脱(RR)。我们表明D-RR继承了RR的优越性,以使光滑强凸和平的非凸起目标功能。特别是,对于平稳强凸的目标函数,D-RR在平方距离方面实现$ \ Mathcal {o}(1 / T ^ 2)$汇率(这里,$ t $计算迭代总数)在迭代和独特的最小化之间。当假设客观函数是平滑的非凸块并且具有Lipschitz连续组件函数时,我们将D-RR以$ \ Mathcal {O}的速率驱动到0美元的平方标准(1 / T ^ {2 / 3})$。这些收敛结果与集中式RR(最多常数因素)匹配。
translated by 谷歌翻译
多标签分类(MLC)是一个预测任务,其中每个样本可以具有多个标签。我们提出了一种基于高斯混合变分性AutoEncoder(C-GMVAE)的新型对比度学习促进的多标签预测模型,其学习多模式现有空间并采用对比损耗。除了预测模块之外,许多现有方法引入了额外的复杂神经模块以捕获标签相关性。我们发现,通过在监督环境中使用对比学习,我们可以有效利用标签信息,并学习有意义的功能和标签嵌入,捕获标签相关性和预测功率,而无需额外的神经模块。我们的方法还采用了学习和对齐功能和标签的潜在空间的想法。 C-GMVAE对潜伏空间的高斯混合结构施加了高斯混合结构,以减轻后塌陷和过正规的问题,与先前的单峰的作品相比。 C-GMVAE优先于多个公共数据集上的现有方法,通常可以匹配其他模型的完整性能,只有50%的训练数据。此外,我们表明学习的嵌入提供了对标签标签交互的解释的见解。
translated by 谷歌翻译